Avec Sora, la génération de vidéos par intelligence artificielle pourrait franchir un cap

Vue d’une vidéo générée par un nouvel outil d’intelligence artificielle, Sora, développé par l’entreprise OpenAI, le 16 février 2024.

Une femme marchant dans les rues de Tokyo à la lumière des néons, une vue d’oiseau d’un phare au milieu des falaises, un crabe combattant un poulpe : ces vidéos sont crédibles au point qu’on peut les prendre pour réelles. Elles sont pourtant produites sans caméra, en tapant une simple consigne textuelle dans une intelligence artificielle (IA) nommée Sora, dévoilée le 15 février par l’éditeur de ChatGPT, OpenAI.

Aussi convaincantes soient-elles, ces images doivent être considérées avec prudence : les médias et le grand public n’ont pas encore pu tester Sora. On sait peu des conditions dans lesquelles ces vidéos d’exemples ont été produites. On ignore par exemple tout de la proportion de séquences ratées, ou du nombre d’essais où figurent des bizarreries visuelles dont est coutumier ce type d’outils, tels un cheval à deux pattes ou un homme à trois jambes.

En outre, Sora n’est pas le tout premier outil de génération vidéo de ce type. Meta a dévoilé Make-A-Video en 2022, la même année que l’Imagen de Google, qui a aujourd’hui un successeur nommé Lumiere. Dès 2023, des outils commerciaux sont apparus comme RunWay ML, Pika ou Kaiber. Autant d’IA aux résultats décevants, selon un tour d’horizon mené par Le Monde en juin 2023.

Moins statiques

Les vidéos de Sora semblent meilleures à plus d’un titre : plus détaillées, plus réalistes, plus longues aussi. Selon OpenAI, elles peuvent durer jusqu’à une minute quand maints concurrents limitent leurs séquences à quelques secondes. Surtout, les vidéos de Sora sont beaucoup moins statiques que celles auxquelles l’IA nous a habitués, se limitant trop souvent à des vues 2D plus ou moins animées.

En comparaison, les séquences de démonstration de Sora sont habitées par de beaux mouvements de caméra, tantôt portée à l’épaule, tantôt montée sur un drone, ou encore déplacée sur un rail avec la raideur géométrique d’un jeu vidéo. Ces belles qualités cinématiques ne manqueront pas d’interroger les professionnels de la vidéo : dans quelles bases d’images OpenAI a-t-il puisé ces vidéos pour entraîner les neurones artificiels de Sora ? Dans son rapport de recherche, l’entreprise américaine reste évasive sur ce sujet. Elle déclare au New York Times employer des vidéos libres de droit ainsi que des images sous copyright.

On ignore quand Sora sera ouverte au grand public. L’accès au nouvel outil d’OpenAI est actuellement réservé à des professionnels de l’image triés sur le volet, ainsi qu’à des chercheurs qui l’aident à verrouiller l’IA contre les usages malintentionnés – notamment contre la production de contenus violents, d’images pornographiques, ou de campagnes de désinformation.

Il vous reste 40.03% de cet article à lire. La suite est réservée aux abonnés.

Source
Catégorie article Politique